En primer lugar, se cargan las librerias necesarias para poder realizar el correspondiente análisis de dados:
# Importamos pandas y numpy para poder trabajar con el dataframe
import pandas as pd
import numpy as np
# importamos las siguientes librerias para poder hacer los graficos
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
# uso pandas_profiling para hacer un anlisis exploratorio rapido automaticamente
from pandas_profiling import ProfileReport
A continuación cargamos la base de datos a estudiar:
# Importamos la base de datos
NBA = pd.read_csv('../Data/01_raw/all_seasons.csv')
NBA
player_name: Nombre del jugador
team_abbreviation: Nombre abreviado del equipo en el que jugo el juagodr (al final de la temporada)
age: Edad del jugador
player_height: Altura del jugador en cm
player_weight: Peso del jugador en kg
college: Nombre de la universidad que asisitio el jugador
country: Nombre del pais en el que nacio el jugador
draft_year: Año en que se seleccionó al jugador
draft_round: Ronda de draft que eligió al jugador
draf_number: El número en el que se eligió al jugador en su ronda de draft
gp: Juegos jugados durante la temporada
pts: Número medio de puntos anotados
reb: Número medio de rebotes capturados
ast: Número medio de asistencias distribuidas
net_rating:Diferencia de puntos del equipo por cada 100 posesiones mientras el jugador está en la cancha
oreb_pct: Porcentaje de rebotes ofensivos disponibles que el jugador agarró mientras estaba en el piso
dreb_pct:Porcentaje de rebotes defensivos disponibles que el jugador agarró mientras estaba en el piso
usg_pct: Porcentaje de jugadas de equipo utilizadas por el jugador mientras estaba en la cancha
ts_pct: Medida de la eficiencia de tiro del jugador que tiene en cuenta los tiros libres, tiros de 2 y 3 puntos
ast_pct: Porcentaje de puntos de campo de compañeros de equipo que el jugador ayudó mientras estaba en la cancha
season: Temporada de la NBA
Generamos, con ayuda de ProfileReport, una breve visualizacion de los datos para realizar un primer EDA
profiling = ProfileReport(NBA, title = "EDA Jugadores NBA")
profiling